De l'importance du prétraitement des données pour l'utilisation de l'inférence grammaticale en Web Usage Mining

نویسنده

  • Thierry Murgue
چکیده

Résumé. LeWeb Usage Mining est un processus d’extraction de connaissance qui permet la détection d’un type de comportement usager sur un site internet. Cette tâche relève de l’extraction de connaissances à partir de données : plusieurs étapes sont nécessaires à la réalisation du processus complet. Les données brutes, utilisées et souvent incomplètes correspondent aux requêtes enregistrées par un serveur. Le pré-traitement nécessaire de ses données brutes pour les rendre exploitables se situe en amont du processus et est donc très important. Nous voulons travailler sur des modèles structurés, issus de l’inférence grammaticale. Nous détaillons un ensemble de techniques de traitement des données brutes et l’évaluons sur des données artificielles. Nous proposons, enfin, des expérimentations mettant en évidence l’affectation des algorithmes classiques d’inférence grammaticale par la mauvaise qualité des logs bruts.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Adaptation du boosting à l'inférence grammaticale via l'utilisation d'un oracle de confiance

Résumé : Cet article présente une adaptation du boosting à l’inférence grammaticale. Notre but est d’améliorer les performances d’un algorithme à base de fusion d’états, en présence de données bruitées. Notre algorithme de boosting utilise une nouvelle règle de mise à jour des poids qui tient compte d’une information supplémentaire fournie par un oracle. Cette information est une évaluation de ...

متن کامل

Traitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining

Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...

متن کامل

Prétraitement de grands ensembles de données pour la fouille visuelle

Résumé. Nous présentons une nouvelle approche pour le traitement des ensembles de données de très grande taille en fouille visuelle de données. Les limites de l’approche visuelle concernant le nombre d’individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter des ensembles de données de grande taille, une solution possible est d’effectuer un prétraitement de l’ensemble de ...

متن کامل

Vers une Ingénierie Ontologique à Base du Web Usage Mining

Résumé. Récemment, de nouvelles approches ont intégré l’utilisation de techniques de fouille de données dans le processus d’enrichissement d’ontologies. En effet, les deux domaines, fouille de données et méta-données ontologiques sont extrêmement liés : d’une part les techniques de fouille de donnée aident à la construction du Web sémantique, d’autre part le Web sémantique aide à l’extraction d...

متن کامل

Evolution du système national d’information sanitaire de la république démocratique du Congo entre 2009 et 2015

Résumé Introduction: Lancé en 1987, le Système national d'information sanitaire (SNIS) de la République Démocratique du Congo (DR Congo) a été évalué en 2009 et 2015 moyennant l'outil HMN (Health metrics network). L'objectif de cette étude était d'estimer les progrès réalisés entre ces deux évaluations. Méthodes: Il s'agissait d'une analyse des données secondaires des évaluations du SNIS, qui a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005